4.1 因果效应观察性实验中无混杂性的难点

第三部分"观察性实验"基于两个重要的假设: 无混杂性 (即 可忽略性) 和 重合度. 它们都是很强的假设. 4.1~4.3 会讨论无混杂性不成立的情形, 4.4 会讨论重合度不成立的情形.

1 因果图基础

因果图是因果推断的一种重要的工具. 例如
Pasted image 20260330122810.png|200
然后我们关注 ZY 上的因果效应, 我们可以按如下流程读取 {XFX(x),Z=fZ(X,εZ),Y(z)=fY(X,z,εY(z)), 这里对 z=0,1 都有 εZεY(z). 这里协变量 X 从分布 FX(x) 生成, 实验分配是一个关于 X 和随机误差项 εZ 的函数, 潜在结果 Y(z) 是一个 X, 分配结果 z 和随机误差项 εY(z) 的函数. 这样 ZY(z)|X, 也即无混杂性假设成立.

如果我们的因果图为
Pasted image 20260330123141.png|200
我们可以这样读取 {XFX(x),UFU(u),ZFZ(X,U,εZ),YFY(X,U,z,εY(z)), 这里 εZεY(z), z=0,1. 所以 ZY(z)|(X,U), 但是 Z⊥̸Y(z)|X, 也即无混杂性对 (X,U) 成立但并不对 X 单独成立. 这样 U 就是个不可观测的混杂变量.

2 评估无混杂性假设

无混杂性假设 ZY(1)|X,ZY(0)|X, 说明P(Y(1)|Z=1,X)=P(Y(1)|Z=0,X),P(Y(0)|Z=1,X)=P(Y(0)|Z=0,X). 所以无混杂性假设要求反事实分布观察到的分布相等: P(Y(1)|Z=0,X)=P(Y(1)|Z=1,X),P(Y(0)|Z=0,X)=P(Y(0)|Z=1,X). 因为反事实分布无法直接从数据识别, 所以无混杂性假设本质上无法在没有额外假设的情况下检验. 我们介绍两种方法来"评估"无混杂性是否成立[1].

2.1 使用阴性结果

去找一个类似 Y 的结果 Yn , 理想状态下有着相同的混杂变量. 如果我们相信 ZY(z)|X, 则我们相信 ZYn(z)|X. 进一步地 τ(ZYn)=E[Yn(1)Yn(0)]. 这样我们可以判断是否成立 τ(ZYn)=0:
Pasted image 20260330141829.png|250

阴性结果的例子

  • 烟草公司辩解在吸烟和肺癌中, 存在混杂变量 "基因" (有些基因让人又喜欢抽烟又会导致肺癌). 研究人员找了阴性结果 "车祸", 发现吸烟对车祸的因果效应接近 0. 这能支持吸烟导致肺癌的结论.
  • 因为因果有时间顺序, 所以现在的干预不可能穿越时空去改变过去的结果. 所以干预对过去的因果效应一定是 0.
  • "流感疫苗" 能降低 "肺炎死亡率". 但是实验人员用流感疫苗给流感季前的人打, 却也有下降, 这说明存在混杂变量: 愿意打疫苗的老人, 本身就身体底子更好、更注重养生.

2.2 使用阴性暴露

阴性暴露是阴性结果的对偶. 假设 Zn 是一个分配变量, 类似 Z, 有相同的混杂变量结构. 如果我们相信 ZY(z)|X, 则 ZnY(z)|X. 进一步地, τ(ZnY)=E[Y(1n)Y(0n)]. 然后判断是否有 τ(ZnY)=0.
也就是说, 我们用一个 "假原因" 对应 Z 来重新分配.
Pasted image 20260330143739.png|250

例子

我们想研究 "妈妈抽烟" 对 "肚子里宝宝健康影响", 可能的混杂变量是 "家庭收入、饮食、工作"等. 我们检查 "爸爸抽烟" 对宝宝有无影响, 发现和 "妈妈抽烟" 的影响一样大, 这说明是混杂变量导致的.

3 过度调整的问题

我们讨论了无混杂性 Z{Y(1),Y(0)}|X 下因果效应的估计. 这是个在 X 条件下的假设. 如何选取 X 来实现条件独立是很重要的. 我们需要尽可能扩大 X 涉及的范围. 但是有些时候这个建议是不对的.

3.1 M 偏差

考虑下图:
Pasted image 20260330162700.png|200
我们可以得到读取顺序: {U1U2,X=fX(U1,U2,εX),Z=fZ(U1,εZ),Y=fY(U2,εY)=Y(z). 这里 (εX,εZ,εY) 是独立的随机误差项. X 能被观测, 但 U1,U2 不能被观测. 如果我们改变 Z 的值, Y 并不会被改变. 所以 ZY 的因果效应为 0: τPF=E[Y|Z=1]E[Y|Z=0]=0. 这意味着不修改协变量 X, 这个简单的估计是无偏的. 但是在 X 上, U1⊥̸U2|X, 因此 Z⊥̸Y|X, 以及一般地 {E[Y|Z=1,X=x]E[Y|Z=0,X=x]}f(x)dx0.
我们考虑一个线性模型 {X=aU1+bU2+εX,Z=cU1+εZ,Y=Y(z)=dU2+εY, 这里 (U1,U2,εX,εZ,εY)i.i.dN(0,1). 我们有 Cov(Z,Y)=Cov(cU1+εZ,dU2+εY)=0,ρZY|X=ρZYρZXρYX1ρZX21ρYX2ρZXρYXCov(Z,X)Cov(Y,X)=abcd,ZY 路径上的系数的乘积. 所以不调整的估计量是无偏的, 但是调整后偏差则正比于 abcd.

3.2 Z 偏差

考虑下面的因果图
Pasted image 20260330165909.png|300
数据读取流程为 {Z=aX+bU+εZ,Y(z)=τz+cU+εY, 这里 (U,X,εZ,εY)i.i.dN(0,1). 我们有 XU, X⊥̸Z, 且 X 只通过 Z 影响 Y. 不调整的估计量为τunadj=Cov(Z,Y)Var(Z)=Cov(Z,τZ+cU)Var(Z)=τ+cCov(aX+bU,U)Var(Z)=τ+cba2+b2+1, 偏差为 bca2+b2+1. 通过 Y(Z,X) 上的 OLS 得到的调整后的估计量满足 {E[Z(YτadjZαX)]=0,E[X(YτadjZαX)]=0. 求解上述方程组, 得到 τadj=τ+bcb2+1, 误差放大了.

一个直观解释是, 实验处理 Z 是一个关于 X,U 和随机误差项的函数. 如果给定 X, Z 就没那么随机了, 不可观测的 U 带来的混杂偏差会被放大.

3.3 观察性实验中, 我们应该调整什么协变量?

我们永远不会知道真的生成数据的流程. 但是下面的例子帮我们说明很多想法. 它已经排除了 M 偏差的可能.

Pasted image 20260330171636.png|300

如果我们相信上述因果图, 我们至少应该调整 X 来移除偏差, 以及 XY 来减小方差.


  1. 评估 (assess) 程度弱于检验 (test). 前者只是额外地支撑/质疑原本分析, 后者是正式的统计检验. ↩︎